如何设计用于人类运动识别的最佳可穿戴设备对于可靠,准确的人机合作至关重要。先前的作品主要是通过启发性制造可穿戴设备。取而代之的是,本文提出了一个学术问题:我们可以设计一种优化算法来优化可穿戴设备的制造,例如自动弄清最佳传感器布置吗?具体而言,这项工作着重于优化用于FMG臂章的示型传感器(FMG)传感器的放置,以应用手臂运动识别。首先,基于图理论,考虑传感器的信号和连接性,对臂章进行了建模。然后,引入了基于图形的臂章建模网络(GAM-NET),以供手臂运动识别。之后,制定了FMG臂章的传感器放置优化,并提出了具有贪婪的本地搜索的优化算法。为了研究我们的优化算法的有效性,收集了使用带有16个传感器的FMG臂章的机械维护任务的数据集。我们的实验表明,仅使用使用我们的算法优化的4个传感器可以帮助保持与使用所有传感器的可比识别精度。最后,从生理视图验证了优化的传感器放置结果。这项工作希望阐明考虑下游任务(例如人类生物信号收集和运动识别)的可穿戴设备的自动制造。我们的代码和数据集可从https://github.com/jerryx1110/iros22-fmg-sensor-optimization获得
translated by 谷歌翻译
视频实例细分(VIS)旨在在视频序列中对对象实例进行分类,分割和跟踪。最近基于变压器的神经网络证明了它们为VIS任务建模时空相关性的强大能力。依靠视频或剪辑级输入,它们的潜伏期和计算成本很高。我们提出了一个强大的上下文融合网络来以在线方式解决VIS,该网络可以预测实例通过前几个框架进行逐帧的细分框架。为了有效地获取每个帧的精确和时间一致的预测,关键思想是将有效和紧凑的上下文从参考框架融合到目标框架中。考虑到参考和目标框架对目标预测的不同影响,我们首先通过重要性感知的压缩总结上下文特征。采用变压器编码器来融合压缩上下文。然后,我们利用嵌入订单的实例来传达身份感知信息,并将身份与预测的实例掩码相对应。我们证明,我们强大的融合网络在现有的在线VIS方法中取得了最佳性能,并且比以前在YouTube-VIS 2019和2021基准上发布的剪辑级方法更好。此外,视觉对象通常具有声学签名,这些签名自然与它们在录音录像中自然同步。通过利用我们的上下文融合网络在多模式数据上的灵活性,我们进一步研究了音频对视频密集预测任务的影响,这在现有作品中从未讨论过。我们建立了一个视听实例分割数据集,并证明野外场景中的声学信号可以使VIS任务受益。
translated by 谷歌翻译
引用视频对象分割(R-VOS)旨在分割视频中的对象掩码,并给出将语言表达式转介到对象的情况下。这是最近引入的任务,吸引了不断增长的研究关注。但是,所有现有的作品都有很大的假设:表达式所描绘的对象必须存在于视频中,即表达式和视频必须具有对象级的语义共识。在现实世界中,通常会违反这种表达式的虚假视频,并且由于滥用假设,现有方法总是在此类错误查询中失败。在这项工作中,我们强调研究语义共识对于提高R-VOS的鲁棒性是必要的。因此,我们从没有语义共识假设的R-VOS构成了一个扩展任务,称为Robust R-VOS($ \ Mathrm {R}^2 $ -VOS)。 $ \ mathrm {r}^2 $ - VOS任务与主R-VOS任务的联合建模及其双重问题(文本重建)基本相关。我们接受这样的观察,即嵌入空间通过文本视频文本转换的周期具有关系一致性,该转换将主要问题和双重问题连接起来。我们利用周期一致性来区分语义共识,从而推进主要任务。通过引入早期接地介质,可以实现对主要问题和双重问题的平行优化。收集了一个新的评估数据集,$ \ mathrm {r}^2 $ -Youtube-vos,以测量R-VOS模型针对未配对的视频和表达式的稳健性。广泛的实验表明,我们的方法不仅可以识别出无关表达式和视频的负面对,而且还提高了具有出色歧义能力的正对的分割精度。我们的模型在Ref-Davis17,Ref-Youtube-Vos和Novel $ \ Mathrm {r}^2 $ -Youtube-vos数据集上实现了最先进的性能。
translated by 谷歌翻译
在蓬勃发展的视频时代,视频细分吸引了多媒体社区的越来越多的研究关注。半监督视频对象细分(VOS)旨在分割视频的所有目标框架中的对象,并给定带注释的参考帧掩码。大多数现有方法构建像素参考目标相关性,然后执行像素跟踪以获得目标掩码。由于忽略对象级别的提示,像素级方法使跟踪容易受到扰动的影响,甚至在相似对象之间进行了不加区分。朝向强大的VOS,关键见解是校准每个特定对象的表示和掩盖,以表达和歧视。因此,我们提出了一个新的深层网络,该网络可以自适应地构建对象表示并校准对象掩盖以实现更强的鲁棒性。首先,我们通过应用自适应对象代理(AOP)聚合方法来构建对象表示,其中代理代表在多级别上的任意形状段以供参考。然后,原型掩码最初是从基于AOP的参考目标相关性生成的。之后,通过网络调制进一步校准此类原始掩码,并根据对象代理表示条件。我们以渐进的方式巩固了此条件掩盖校准过程,其中对象表示和原始遮罩会演变为歧视性迭代。广泛的实验是在标准VOS基准,YouTube-VOS-18/19和Davis-17上进行的。我们的模型在现有已发表的作品中实现了最新的表现,并且还表现出对扰动的卓越鲁棒性。我们的项目回购位于https://github.com/jerryx1110/robust-video-object-ementation
translated by 谷歌翻译
错误传播是在线半监控视频对象分段中的一般但重要的问题。我们的目标是通过具有高可靠性的校正机制来抑制误差传播。关键洞察力是用可靠的线索解开传统掩模传播过程的校正。我们介绍了两个调制器,传播和校正调制器,根据本地时间相关性和可靠的引用,在目标帧嵌入中分别对目标帧嵌入进行分别执行频道 - WIES重新校准。具体地,我们用级联的传播校正方案组装调制器。这避免了通过传播调制器来覆盖可靠校正调制器的效果。尽管具有地面真理标签的参考帧提供可靠的提示,但它可能与目标帧非常不同,并引入不确定或不完全相关的相关性。我们通过向维护池补充可靠的功能补丁来增强参考线索,从而为调制器提供更全面和表现力的对象表示。此外,可靠性滤波器设计成检索可靠的贴片并将其传递在后续帧中。我们的模型在YouTube-VOS18 / 19和Davis17-Val /测试基准上实现了最先进的性能。广泛的实验表明,通过充分利用可靠的指导,校正机制提供了相当大的性能增益。代码可用:https://github.com/jerryx1110/rpcmvos。
translated by 谷歌翻译
人类对象与铰接物体的相互作用在日常生活中很普遍。尽管单视图3D重建方面取得了很多进展,但从RGB视频中推断出一个铰接的3D对象模型仍然具有挑战性,显示一个人操纵对象的人。我们从RGB视频中划定了铰接的3D人体对象相互作用重建的任务,并对这项任务进行了五个方法家族的系统基准:3D平面估计,3D Cuboid估计,CAD模型拟合,隐式现场拟合以及自由 - 自由 - 形式网状配件。我们的实验表明,即使提供了有关观察到的对象的地面真相信息,所有方法也难以获得高精度结果。我们确定使任务具有挑战性的关键因素,并为这项具有挑战性的3D计算机视觉任务提出指示。短视频摘要https://www.youtube.com/watch?v=5talkbojzwc
translated by 谷歌翻译
最先进的面部识别方法通常采用多分类管道,并采用基于SoftMax的损耗进行优化。虽然这些方法取得了巨大的成功,但基于Softmax的损失在开放式分类的角度下有其限制:训练阶段的多分类目标并没有严格匹配开放式分类测试的目标。在本文中,我们派生了一个名为全局边界Cosface的新损失(GB-Cosface)。我们的GB-COSface介绍了自适应全局边界,以确定两个面积是否属于相同的身份,使得优化目标与从开放集分类的角度与测试过程对齐。同时,由于损失配方来自于基于软MAX的损失,因此我们的GB-COSFace保留了基于软MAX的损耗的优异性能,并且证明了COSFace是拟议损失的特殊情况。我们在几何上分析并解释了所提出的GB-Cosface。多面识别基准测试的综合实验表明,所提出的GB-Cosface优于主流面部识别任务中的当前最先进的面部识别损失。与Cosface相比,我们的GB-Cosface在Tar @ Far = 1E-6,1E-5,1E-4上提高了1.58%,0.57%和0.28%的IJB-C基准。
translated by 谷歌翻译
访问大型和多样化的计算机辅助设计(CAD)图纸对于开发符号发现算法至关重要。在本文中,我们展示了地板平面图,这是一个大型现实世界CAD绘图数据集,包含超过10,000楼的计划,从住宅到商业建筑。 DataSet中的CAD图形都表示为矢量图形,这使我们能够提供30个对象类别的线粒化注释。通过这种注释配备,我们介绍了Panoptic符号发现的任务,这需要点发现可数件事的实例,也需要发现不可数的东西的语义。旨在解决这项任务,我们通过将图形卷积网络(GCNS)与卷积神经网络(CNNS)组合来提出一种新颖的方法,其捕获非欧几里德和欧几里德特征,并且可以训练结束到底。所提出的CNN-GCN方法在语义符号发现的任务上实现了最先进的(SOTA)性能,并帮助我们为Panoptic符号发现任务构建基线网络。我们的贡献是三倍:1)据我们所知,所呈现的CAD图形数据集是其第一个; 2)Panoptic Symbol Spotting Task考虑了事物实例的发现和语义作为一个识别问题; 3)我们基于新型CNN-GCN方法向Panoptic Symbol Spotting Task提供了基线解决方案,该方法在语义符号斑点上实现了SOTA性能。我们认为,这些贡献将促进相关领域的研究。
translated by 谷歌翻译
Few Shot Instance Segmentation (FSIS) requires models to detect and segment novel classes with limited several support examples. In this work, we explore a simple yet unified solution for FSIS as well as its incremental variants, and introduce a new framework named Reference Twice (RefT) to fully explore the relationship between support/query features based on a Transformer-like framework. Our key insights are two folds: Firstly, with the aid of support masks, we can generate dynamic class centers more appropriately to re-weight query features. Secondly, we find that support object queries have already encoded key factors after base training. In this way, the query features can be enhanced twice from two aspects, i.e., feature-level and instance-level. In particular, we firstly design a mask-based dynamic weighting module to enhance support features and then propose to link object queries for better calibration via cross-attention. After the above steps, the novel classes can be improved significantly over our strong baseline. Additionally, our new framework can be easily extended to incremental FSIS with minor modification. When benchmarking results on the COCO dataset for FSIS, gFSIS, and iFSIS settings, our method achieves a competitive performance compared to existing approaches across different shots, e.g., we boost nAP by noticeable +8.2/+9.4 over the current state-of-the-art FSIS method for 10/30-shot. We further demonstrate the superiority of our approach on Few Shot Object Detection. Code and model will be available.
translated by 谷歌翻译
In this chapter, we review and discuss the transformation of AI technology in HCI/UX work and assess how AI technology will change how we do the work. We first discuss how AI can be used to enhance the result of user research and design evaluation. We then discuss how AI technology can be used to enhance HCI/UX design. Finally, we discuss how AI-enabled capabilities can improve UX when users interact with computing systems, applications, and services.
translated by 谷歌翻译